扫描下载APP
其它方式登录
文章介绍Einsia AI旗下Navers lab发布的Frontier-Eng Bench工程基准测试,该测试包含47个无标准答案的多学科硬核任务,要求AI Agent在仿真环境中完成提出方案、运行反馈、参数调整、持续迭代的完整工程闭环,重点评估其长期优化与自我进化能力,标志着AI正从‘做题家’迈向能承担真实研发任务的Auto Research时代。
文章介绍名为talkie-1930-13b的 vintage 大模型,其训练数据严格截止于1930年,经仅250个样本微调后成功修复xarray库代码缺陷,展现出试错、反思与自我修正能力;实验表明其软件工程能力(SWE-bench-Verified pass@1达4.5%)接近互联网训练模型,引发对智能本质与预训练数据必要性的深层反思。
文章围绕Jack Clark提出的观点展开,认为AI正快速逼近端到端自动化AI研发的能力,依据CORE-Bench、SWE-Bench、MLE-Bench、PostTrainBench等基准测试的显著进展,论证AI已在复现论文、编码、微调模型、kernel优化、长时任务执行等核心研发环节取得实质性突破,预计到2028年底实现无人类参与的AI自我构建概率超60%,并探讨其对对齐、生产力、经济结构和治理的深远影响。
STReasoner是首个融合时间序列、空间图结构与自然语言的推理模型,专注于因果溯源、影响路径追踪和时空关系理解,突破传统预测范式;通过可控合成数据生成框架ST-Bench、三阶段训练(对齐→推理微调→空间感知强化学习)及S-GRPO机制,显著提升结构化推理能力,且计算成本仅为闭源模型的0.004×。
斯坦福、伯克利与英伟达联合提出LLM-as-a-Verifier验证框架,通过提升评分粒度、重复验证和评估标准分解,解决传统LLM-as-a-Judge在长时序任务中评分粗糙、平局率高(27%)的问题,在Terminal-Bench和SWE-Bench Verified等AI编程基准上取得SOTA性能,显著提升Agent准确率与稳定性。